HDF5形式、Microsoft Excelファイルの使用
HDF5形式(hierarchical data format, 階層型データ形式)
HDF5形式は、大量の化学的な配列データを保存するための、評判の良いファイル形式です。HDF5では巨大な配列のごく一部を効率よく読み書きできるので、メモリに収まらない非常に巨大なデータセットにも使えます。
code: Python
frame = pd.DataFrame({'a': np.random.randn(100)})
store = pd.HDFStore('mydata.h5')
--------------------------------------------------------------------------
a
0 -0.079373
1 1.219938
2 -0.478271
3 0.818737
4 -1.714218
... ...
95 -0.399421
96 -0.929320
97 0.607174
98 -1.303896
99 -2.086686
100 rows × 1 columns
--------------------------------------------------------------------------
code: Python
# putを使えば保存形式を指定できる(fixedとtable)
store.put('obj2', frame, format='table')
# store.close()
--------------------------------------------------------------------------
a
10 -0.528735
11 0.457002
12 0.929969
13 -1.569271
14 -1.022487
15 -0.402827
--------------------------------------------------------------------------
code: Python
frame.to_hdf('mydata.h5', 'obj3', format='table')
--------------------------------------------------------------------------
a
0 -0.079373
1 1.219938
2 -0.478271
3 0.818737
4 -1.714218
--------------------------------------------------------------------------
Microsoft Excelファイル
読み込みパターン1
code: Python
xlsx = pd.ExcelFile('ex1.xlsx')
pd.read_excel(xlsx, 'Sheet1')
--------------------------------------------------------------------------
a b c d message
0 1 2 3 4 hello
1 5 6 7 8 world
2 9 10 11 12 foo
--------------------------------------------------------------------------
読み込みパターン2
code: Python
frame = pd.read_excel('ex1.xlsx', 'Sheet1')
frame
--------------------------------------------------------------------------
a b c d message
0 1 2 3 4 hello
1 5 6 7 8 world
2 9 10 11 12 foo
--------------------------------------------------------------------------
書き込みパターン1
code: Python
writer = pd.ExcelWriter('ex2.xlsx')
frame.to_excel(writer, 'Sheet1')
writer.save()
書き込みパターン2
code: Python
frame.to_excel('ex2.xlsx')